本文提出了一种基于强化学习的导航方法,在其中我们将占用观测定义为运动原始启发式评估,而不是使用原始传感器数据。我们的方法可以将多传感器融合生成的占用数据快速映射到3D工作区中的轨迹值中。计算有效的轨迹评估允许对动作空间进行密集采样。我们利用不同数据结构中的占用观测来分析其对培训过程和导航性能的影响。我们在基于物理的仿真环境(包括静态和动态障碍)中对两个不同机器人进行训练和测试。我们通过最先进方法的其他常规数据结构对我们的占用表示进行基准测试。在动态环境中,通过物理机器人成功验证了训练有素的导航政策。结果表明,与其他占用表示相比,我们的方法不仅减少了所需的训练时间,还可以改善导航性能。我们的工作和所有相关信息的开源实现可从\ url {https://github.com/river-lab/tentabot}获得。
translated by 谷歌翻译